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一 种 改进 的 深度 残 差 网 络 行人 检测 方法 
郝 烛 政 ， 柴 争 义 


(天 津 工业 大 学 计算 机 科学 与 软件 学 院 ， 天 津 300387) 


摘 要 : 为 了 提高 行人 检测 方法 的 准确 率 ， 针 对 行人 图 像 特征 ， 提 出 一 种 基于 深度 残 差 网 络 和 YOLO(You Only Look 
Once) 方 法 的 行人 检测 方法 。 以 加 强行 人 特征 表达 为 目的 ,通过 分 析 行 人 在 图 像 中 的 表达 和 分 布 特征 ,提出 一 种 不 影响 
实时 性 的 殉 形 输入 深度 残 差 网 络 分 类 模型 以 改进 YOLO 检测 方法 ,使 模型 能 够 更 好 的 表征 行人 ; 为 了 进一步 提高 模型 
的 准确 率 和 泛 化 能 力 ， 采用 了 混合 行人 数据 集训 练 的 方式 ， 提 取 VOC 数据 集 的 行人 数据 与 INRIA 数据 集 组 成 混合 数 
据 集 进行 训练 ， 明 显 降低 了 漏 检举 ; 并 且 利 用 聚 类 分 析 预 测 框 的 方法 重新 设计 了 初始 预测 框 ， 提 高 行人 定位 能 力 并 加 
快 收 化 。 经 公开 的 INRIA 数据 集 的 测试 实验 证 明 ， 本 方法 较 主 流 的 行人 检测 方法 每 张 图 片 误 检 率 有 明显 改善 ， 降 低 至 
13.86%， 有 1.51% 至 58.62% 不 同 程度 的 提升 ， 并 且 本 方法 拥有 良好 的 实时 性 和 泛 化 能 力 ， 实 用 性 强 。 
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中 图 分 类 号 : TP391.41 doi: 10.3969/j.issn.1001-3695.2017.12.0836 


Improved pedestrian detection method based on depth residual network 


Hao Xuzheng, Chai Zhengyi 
(School of Computer Science & Sofiware Engineering, Tianjin Polytechnic University, Tianjin 300387, China) 


Abstract: To improve the accuracy of the pedestrian detection method, a rectangular input of convolution neural network 


enhance the new pedestrian detection method based on the depth residual network and YOLO object detection method. The 


rectangular input helped the model gain the pedestrian characteristics expression by analyzing the expression and distribution 


characteristics of pedestrians in the images. The depth residual network with pre-activation for YOLO object detection improved 
the feature extraction ability through more layers of convolution neural networks. Hybrid dataset training and cluster anchor 
boxes could also improve the pedestrian detection performance. The test results of INRIA dataset have proved that the method 
has better detection performance than the popular pedestrian detection methods, the index of False Positive per Image can reduce 
to 13.86%, improving ranging from 1.51% to 58.62% in varying degrees. 
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络 的 行人 检测 方法 能 够 自动 学 习 行 人 特征 ， 具 有 较 好 的 泛 化 能 
行人 检测 是 计算 机 视觉 领域 的 重要 研究 课题 之 一 。 行 人 检 ，”” 力 ， 随 着 卷 积 神经 网 络 在 目标 检测 领域 的 成 功 应 用 ， 引 起 了 
测 通常 通过 图 像 处 理 、 计 算 机 视觉 相关 算法 以 及 机 器 学 习 等 技 究 者 的 广泛 关注 ， 成 为 计算 机 视觉 领域 的 研究 热点 之 一 四 。 


0 引言 


术 对 行人 进行 检测 和 识别 由 。 行 人 检测 和 识别 技术 在 无 人 驾驶 基于 卷 积 神经 网 络 的 目标 检测 方法 主要 有 区 域 提 名 和 端 到 
汽车 、 智 能 视觉 监控 、 服 务 型 智能 机 器 人 等 领域 中 均 有 重要 应 。” 端 两 个 方向 。 基 于 区 域 提名 方向 的 研究 主要 是 R-CNN(region- 
用 。 based convolutional neural networks ， 基 于 区 域 的 卷 积 神经 网 


根据 分 类 方法 ， 行 人 检测 通常 被 分 为 形变 部 件 模 型 变 体 、 2&)U-91. SPP-net (spatial pyramid pooling networks， 人 金字 塔 池 化 
基于 决策 森林 的 行人 检测 方法 和 基于 深度 神经 网 络 的 行人 检测 层 网 络 )10 和 R-FCN(Region-based Fully Convolutional Network, 
方法 三 种 记 。 近 年 来 ， 行 人 检测 在 这 三 个 研究 方向 均 有 不 同 程 ”基于 区 域 的 全 卷 积 网 络 )LD。FasterR-CNNII 使 用 了 区 域 提 名 网 
度 的 发 展 ， 在 公开 的 行人 数据 集 上 可 以 取得 相似 的 性 能 表现 。 络 (region proposal networks，RPN)， 提 出 预测 框 (anchor box) 机 
但 类 似 方 向 梯度 直方 图 (HOG)Bl、 局 部 二 值 模式 (LPB) 外 等 手工 。 制 。 端 到 端 方向 的 研究 主要 有 YOLO! SSD(single shot 

寺 征 的 传统 行人 检测 方法 存在 特征 维度 高 、 手 工 设计 特征 、 泛 multi-box detectoria。YOLOv203] 方 法 去 掉 YOLO 全 链接 层 引 
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明显 提升 ， 并 且 本 方法 拥有 良好 的 实时 性 和 泛 化 能 力 。 
1 ”相关 知识 


入 Faster R-CNN 提出 的 区 域 提名 网 络 ， 加 入 聚 类 分 析 ， 多 尺 
训练 、 多 层次 特征 融合 层 等 改进 ， 并 在 此 基础 上 加 入 词汇 向 量 
树 和 联合 训练 算法 ， 提 出 可 以 检测 超过 9000 种 物体 
YOLO900003] 方 法 。 1.4 YOLOVv2 目标 检测 方法 

本 文 基于 端 到 端 目标 检测 的 研究 成 果 ， 针 对 行人 特征 提出 YOLOv2 目标 检测 方法 是 目前 最 先进 的 目标 检测 方法 之 一 ， 
了 一 种 融合 深度 残 差 网 络 05404 和 YOLO 方 法 的 行人 检测 和 识别 ” ”在 检测 速度 和 检测 精度 均 有 出 色 表现 。YOLOv2 方法 使 用 的 是 
方法 。 本 方法 通过 分 析 行 人 在 图 像 中 的 表达 和 分 布 特征 ， 提 出 ”基于 GoogLeNet 的 定制 网 络 ， 结 构 如 图 1。 其 分 类 网 络 是 
一 种 9:19 矩形 输入 的 卷 积 神经 网 络 分 类 模型 加 强 了 行人 特征 。 ”Darknet-1903] 网 络 模型 ， 拥 有 19 个 卷 积 层 和 4 个 池 化 层 ， 把 
表达 ; 为 了 提高 模型 的 特征 提取 能 力 , 本 文 提出 了 基于 50 层 的 ” ”1x1 的 卷 积 核 置 于 3x3 的 卷 积 核 之 间 来 压缩 特征 ， 每 次 池 化 后 
预 激活 深度 残 差 网 络 的 YOLO 行人 检测 方法 , 使 模型 能 够 更 好 ” ”将 特征 图 维度 加 倍 。 分 类 网 络 还 采用 了 批 规 范 化 、 预 训练 和 多 
的 表征 行人 ; 为 了 提高 模型 的 准确 率 和 泛 化 能 力 ， 本 文 提出 了 ”尺度 训练 等 方法 提高 网 络 分 类 准确 率 。 
混合 行人 数据 集训 练 方式 ， 手 工 提取 了 VOC 数据 集 的 行人 数 YOLOv2 的 检测 网 络 借鉴 了 Faster R-CNN， 使 用 了 带 有 
据 与 INRIA 数据 集 组 成 混合 数据 集 进 行 训 练 , 明显 降低 网 络 漏 Anchor 预测 框 的 卷 积 层 , 并 优化 了 先 验 预测 框 的 选取 ; YOLOv2 
检 率 ; 最 后 ， 本 文 针对 提出 的 网 络 模型 和 增强 的 数据 集 通 过 聚 。” 还 设计 了 多 层次 特征 融合 层 ， 把 26x26x512 的 浅 层 特征 图 拆 分 
类 分 析 方 法 设计 了 初 选 预测 框 , 提高 行人 定位 能 力 , 加 快 收敛 。 组 成 13x13x2048 的 特征 图 ， 并 连接 到 深层 组 成 13x13x3072 
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v ”实验 证 明 ， 本 算法 拥有 良好 的 实时 性 和 泛 化 能 力 ， 在 公开 的 行 寺 征 图 ， 从 而 使 YOLOYv2 能 够 获得 更 好 的 细 粒 度 特征 。 
e 人 数据 集 下 ， 本 方法 较 主 流 的 行人 检测 方法 每 张 图 片 误 检 率 有 
一 
< (m 2048 
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u= 4 个 池 化 层 
《 图 1 20 分 类 的 YOLOv2 结构 图 
rz 1.2. 深度 残 差 网 络 此 时 原 最 优 解 映射 被 表示 为 
© 深度 残 差 网 络 (Deep Residual Network, Resnet〉 是 何 恺 明 H(X)- F(X)+X 
等 人 在 文献 [15] 中 提出 的 极 深 卷 积 神经 网 络 模型 ， 可 以 避免 简 深度 残 差 网 络 自动 提取 特征 时 ， 只 要 FGCX)=0 ， 即 完成 了 
单 堆 县 的 卷 积 神经 网 络 梯度 消失 或 爆炸 以 及 精度 退化 问题 ， 模 一 个 恒 等 映 射 且 (X)=XX ， 显 然 ， 使 网 络 去 拟 合 确定 的 函数 
型 更 容易 优化 ， 性 能 提升 明显 051。 F(X) 20 [Bo X^ P CH OX) 容易 。 
nus 在 深度 残 差 网 络 中 ，F(CX)+X 通过 快捷 连接 来 实现 , 结构 
， d X | Baneru 如 图 2(a) 所 示 。 人 快捷 连接 跳 过 2 或 3 SERA, AFRE 
Y 1x1, 64 加 层 相 加 作为 输出 。 文 献 [16] 进 一 步 提 出 了 预 激 活 机 制 的 深度 
3x3, 64 BN&ReLU 
FX) | Reu TENE 残 差 网 络 Resnetv2， 在 卷 积 操作 前 进行 批 规范 化 和 激活 操作 ， 
ER $ BN&ReLU 如 图 2(b) 所 示 ， 采 用 预 激 活 方式 使 深度 残 差 网 络 加 强 对 模型 的 
M E 正则 化 ， 并 加 快 网 络 收敛 。 
H(X)=F(X)+1 ReLU ( » 二 
LEE LL 2 ”针对 图 像 特征 的 行人 检测 方法 
图 2 深度 残 差 网 络 基本 结构 z 
2.1 基于 图 像 的 行人 特征 分 析 
假设 五 (X)=X 来 表示 最 优 解 映射 ， 一 般 的 卷 积 神经 网 络 人 类 通过 双眼 观察 事物 ， 视 像 设 备 记录 人 类 眼中 的 事物 ， 
EERME HOO 9 X ， 而 深度 残 差 网 络 期 望 网 络 拟 合 残 差 映 ” 这 些 事 物 都 是 “真实 ”的 ， 这 是 针对 行人 图 像 特征 的 行人 检测 
射 ， 即 方法 设计 的 灵感 来 源 。 计 算 机 视觉 是 机 器 模拟 生物 视觉 的 方法 ， 
F(X)=H(X)-X 如 果 给 机 器 更 贴近 原生 的 输入 , 则 更 有 利于 机 器 “理解 ”世界 。 
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通过 对 行人 图 像 进行 分 析 ， 如 图 3 所 示 ， 可 归纳 以 下 特点 : 在 实现 K-means 聚 类 时 ， 没 有 采用 闵可夫 斯 基 距 离 变 式 作 
a) 行人 个 体 的 横向 (X) 特 征 表达 比 纵向 (Y) 特 征 表达 少 ， 如 为 评价 指标 ， 而 是 通过 交 并 比 衡量 ， 这 样 可 以 避免 框 的 尺寸 对 
图 3(d) 所 示 。 行 人 身高 和 身 宽 比 约 为 3:1， 横 向 特征 表达 较 少 ， K-means 损失 的 影响 。 并 且 计算 交 并 比 时 没有 采用 直接 的 框 的 
曾 加 横向 特征 表达 有 助 于 行人 识别 。 的 长 宽 计 算 ， 而 是 通过 单位 网 格 将 其 标准 化 。 最 终 ， 相 异 度 计 
b) 行人 群体 在 没有 标注 的 图 像 上 无 法 体现 深度 信息 ,因此 算 公 式 为 
如 图 3(a) 人 群 可 以 看 做 行人 特征 的 横向 堆 共 ， 增 加 图 像 宽度 ， d(box,centrd)=1- IoU (box,centrd) 
有 利于 行人 群体 特 表达 。 其 中 : centrd KREP ÙO, box 表示 样本 。 IoU(box,centrd) 表 
示 簇 中心 框 和 聚 类 框 的 交 并 比 。 交 并 比 IoU 表示 预测 框 的 准确 
程度 ， 公 式 表 示 为 
IoU (bb, ,bb,) = BAI 
i bb, Ubb, 
其 中 : bb, RRAK, bb, 表示 预测 框 
本 文通 过 实验 对 比 了 K=[2~9] 八 组 预测 框 对 模型 定位 能 
的 影响 ， 见 图 4， 均 衡 网 络 性 能 和 检测 实时 性 ， 最 终 选 择 预测 
框 个 数 为 5 个 。 
图 3 卷 积 神经 网 络 的 图 像 预 处 理 比例 ii p i 
另外 ， 视 像 设 备 多 采用 16:9 长 宽 比 例 采 集 数据 ， 视 像 数据 | 
多 为 图 3(a)(d) 形 式 ， 特 别 是 图 3(a) 画 幅 是 视频 采集 常用 画幅 。 04 
而 目标 检测 方法 通常 输入 处 理 后 的 正方 形 图 像 ， 这 种 处 理 加 大 ii 
了 行人 横向 和 纵向 特征 差异 ， 从 图 3b)Ce) Ce) D v At Ee td T LL 
失真 比 竖 幅 图 像 的 失真 程度 更 高 。 idc an 特征 "e 
行人 识别 研究 中 也 有 类 似 工作 , 认为 对 于 Haar 特征 方法 增加 样 
本 宽度 的 性 能 好 于 增加 样本 高 度 的 性 能 。 综 上 ， 本 文采 用 了 改 — 2.3 Res-P-YOLO 网 络 设计 
变 卷 积 神经 网 络 输入 的 长 宽 比 例 ， 利 用 矩形 输入 网 络 提 取 更 丰 本 文 基于 YOLOYv2 目标 检测 模型 ， 把 Resnetv2-50 分 类 网 
富 的 横向 特征 , 经 实验 验证 , 本 文选 择 了 288X608 分 辨 率 图 像 ” 络 与 YOLOYv2 的 检测 方法 结合 。 首 先 去 掉 50 层 预 激活 深度 残 
作为 输入 ， 这 个 分 状 率 的 图 像 与 416X416 图 像 有 相近 像素 数 ， 差 网 络 最 后 的 一 个 平均 池 化 层 和 一 个 全 链接 层 ， 此 时 最 后 的 卷 
不 影响 实时 性 肉 层 输出 维度 为 2048， 为 了 避免 高 维度 带 来 的 计算 量 ， 在 此 后 
2.2 ”基于 维度 聚 类 的 预测 框 选取 串联 一 个 1X1X1024 卷 积 层 ,用 来 降低 维度 以 减少 运算 量 ， 其 
在 基于 区 域 提名 网 络 的 目标 检测 方法 中 ， 先 验 预 测 框 的 设 。 次 有 针对 性 的 将 深度 残 差 网 络 的 输入 设计 为 288X608, 保留 图 
往往 是 手工 设计 而 成 ， 虽 然 网 络 在 迭代 过 程 中 也 能 拟 合 随 机 像 更 多 横向 特征 ; 然后 接 入 YOLOv2 的 检测 网 络 ， 并 将 分 类 网 
性 较 大 , 使 网 络 拟 合 缓慢 ,而且 更 容易 使 模型 收敛 到 局 部 最 优 ， 络 中 18X38X512 特征 图 作为 细 粒 度 特征 与 检测 网 络 的 特征 图 
文献 [13] 针 对 这 个 问题 提出 了 维度 聚 类 的 方法 选取 先 验 预测 框 。 重组 ， 提 高 网 络 小 物体 识别 能 力 ;， 最 后 根据 识别 目标 数目 和 预 
本 文采 用 了 K-means 聚 类 方法 对 数据 集 进行 分 析 ， 确 定 先 验 框 。” 测 框 设置 调整 模型 ， 完 成 Res-P-YOLO 行人 识别 方法 的 设计 ， 
个 数 和 大 小 。 结构 图 如 图 5 所 示 。 
19 2048 
5 
608 Resnet-50 网 络 | 
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在 训练 过 程 中 ，Res-P-YOLO 端 到 端 回归 行人 位 置 坐标 的 
同时 ， 也 进行 了 预测 框 中 行人 的 置信 度 Conf (Person) 计算 ， 
信和 度 包含 了 预测 框 的 准确 程度 和 框 内 存在 行人 的 可 能 性 
Pr(Person) 为 


Conf (Person) = Pr(Person) x IoU * 

因此 ， 在 训练 过 程 中 Res-P-YOLO 在 计算 损失 时 需要 衡量 
行人 位 置 、 预 测 框 准 确 度 和 行人 可 能 性 三 方面 ， 故 模型 的 损失 
函数 表示 为 


WxH B 
loss( person) — 4.0 >》 AP ^((x, X) 
i-0 j=0 


+0, 7 3 Qv, - i e fn, - fy 


j > -y 


AAT (6-8) 
Saep- B) 


其 中 : WH 表示 网 络 最 终 特征 图 网 格 尺 寸 ，B 表示 每 个 网 格 的 
预测 框 个 数 ，x,y,w,h 表示 框 的 中 心 和 宽 高 ， C, 表示 预测 框 定 
位 到 行人 的 置信 度 ，C, 表示 框 内 真实 存在 行人 的 置信 和 度 ，p, 表 
ZPO TT ABE, D, 真实 存在 行人 置信 度 。4.Awe 分 别 表 
预测 和 行人 预测 正则 化 惩罚 系数 ，As” 表示 第 i 个 网 格 
的 第 j 个 预测 框 存在 行人 的 可 能 性 ，A” 表示 判定 第 i 个 网 格 
存在 行人 的 概率 。 


示 位 
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3 ”方法 验证 与 实验 对 比 


3.1 实验 环境 
本 文 的 实验 环境 如 下 ，CPU: Intel Core i7-6800K; 内 存 : 
16G DDR4; GPU: Nvidia Geforce GTX1070; 操作 系统 : 64 
Ubuntu16.04 LTS; 实验 框架 为 Darknet 开源 框架 。 数 据 集 选 用 
了 INRIA 行人 数据 集 和 提取 自 PASCAL VOC 数据 集 的 行人 数 
据 。 在 该 实验 环境 下 ，Res-P-YOLO 在 1080p 的 mp4 视频 上 的 
检测 速度 可 达 31.2 帧 / 秒 。 
3.2 行人 检测 模型 评价 方法 
AK fs FSK B Hr v E (false positive per image，FPPD 和 
漏 检 率 (Miss Rate，MR) 指 标 评价 行人 检测 方法 ， 使 用 ROC 上 
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AU, F: 
3.3 混合 数据 集训 练 效果 验证 
INRIA 行人 数据 集 是 目前 被 应 用 最 多 的 公开 数据 集 ， 训 练 
集 标注 准确 ， 场 景 丰富 ， 分 为 测试 集 和 训练 集 两 部 分 。 训 练 身 
包含 行人 样本 2416 个 , 分布 在 614 KE Pr E; 测试 集 包 含 行人 
样本 1126 个 ， 分 布 在 288 张 图 片上 。PASCAL VOC 数据 集 是 
知名 的 20 分 类 的 公开 多 目标 数据 集 , 本 文 根 据 标 注 信息 , 从 泥 
合 的 数据 集中 手工 提取 出 8102 张 行人 图 片 以 及 对 应 标注 信息 。 
深度 学 习 方 法 需要 大 量 数据 训练 ， 少 量 数据 容易 造成 过 拟 
合 ， 虽 然 在 该 数据 集 上 有 较 好 表现 ， 但 实际 应 用 时 泛 化 能 力 较 
差 。 针对 这 个 问题 ,本文 提取 了 PASCALVOC 数据 集 的 全 部 行 
人 数据 用 来 辅助 训练 , 提高 本 方法 的 泛 化 能 力 。 本 文 使 用 INRIA 
和 VOC 混合 训练 模型 与 仅 使 用 INRIA 训练 模型 进行 实验 对 比 ， 
如 图 6 所 示 ， 实 验 表 明 使 用 混合 训练 的 方法 能 使 行人 检测 的 每 
张 图 片 漏 检 率 降低 5%。 因 此 ， 本 文 综合 了 INRIA 行人 数据 集 
FU PASCAL VOC 数据 集 行人 图 片 部 分 , 共有 样本 图 片 8716 张 ， 
本 文选 取 PASCAL VOC 训练 集 全 部 行人 图 片 和 INRIA 训练 集 
作为 实验 的 训练 集 ; 选取 PASCAL VOC 测试 集 全 部 行人 图 片 
作为 实验 的 验证 集 采用 INRIA 测试 集 作为 实验 的 测试 集 。 


Tt 


— 19% INRIA 
----- 14% INRIA+VOC 


t t ] 
10* 10* 107 10° 
平均 每 张 图 片 误 检 行 人 个 数 


图 6 混合 数据 集训 练 和 单一 数据 集训 练 模型 性 能 对 比 


3.4 ”和 矩 形 输入 性 能 对 比 

在 设计 和 矩形 输入 时 有 两 种 思路 : 一 是 在 原始 输入 416X416 
基础 上 进行 横向 扩展 ， 但 会 导致 分 辨 率 又 增 ， 无 法 验证 矩形 输 
入 对 网 络 的 影响 ， 并 会 影响 实时 性 ; 二 是 自行 设计 新 的 抢 形 尺 
寸 使 像素 数 尽量 与 416x416 相近 ， 在 保证 实时 性 的 同时 可 以 
验证 算 形 输入 对 网 络 的 影 


un 
o 


线 直 观 表 示 。 该 指标 通过 整 张 图 像 评估 反映 整个 行人 检测 系统 
的 性 能 ，FPPI-MR 指标 越 低 表明 行人 检测 方法 性 能 越 好 。 漏 检 
率 和 每 张 图 片 误 检 率 计算 方法 分 别 如 下 
__EN 
FN +TP 


FPPI = us 
N 


dat 


其 中 : FN 表示 实际 为 行人 ， 被 判定 非 行 人 的 个 数 ，7P 表示 实 


本 文 验证 采用 方法 二 ， 先 形 输入 的 设计 见 表 1 。 
Al 网 络 和 矩形 输入 设计 


DIR 长 宽 比 像素 数 
416X416 13:13 173056 
352 X480 11:15 168960 
352X 544 11:17 191488 
288 X 544 9:17 156672 
288 X 608 9:19 175104 


际 为 行人 , 被 判定 行人 的 个 数 ;，FP 表 示 实 际 非 行 人 , 被 判定 行 
人 的 个 数 ， N_i 表示 测试 集 图 片 张 数 。 


显然 288X608 像素 数 与 416X416 最 为 相近 ， 故 采用 288 
X608 和 416X416 两 种 输入 尺寸 进行 实验 比 对 。 为 了 加 快 验证 
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速度 , 采用 
fr AS 


I 定量 分 析 实 验 ， 实 验 均 采 | 


了 yolov2 精简 方法 tiny-yolo08 在 上 述 训 练 集 上 进行 


j 默 认 设 置 ， 仅 修改 输入 分 


办 率 设 


， 从 图 7 可 以 看 出 , RA 


H 288X608 输入 的 行人 检测 方 


法 有 明显 提升 ， 召 回 率 提高 6.37%， 平 均 交 并 比 提升 2.2296. 


91. 46% 


召回 地 平均 交 并 比 


7 不 同 输入 尺寸 对 网 络 性 能 的 影响 


3.5 ”实验 结果 与 对 比 


Res-P-YOLO 网 络 的 构建 和 实现 基于 开源 的 深度 学 习 框 架 
均匀 分 布 策 略 (polynomial decay), 
初始 学 习 率 为 0.001， 在 40000 和 60000 次 和 迭代 后 分 别 在 乘 以 
0.1, 动 量 系数 为 0.9， 权 值 衰减 系数 为 0.0005， 
整 曝光 、 饱 和 度 、 色 调 数据 增强 的 方法 。 实 验 以 64 IKR 


Darknetl8。 训 练 时 学 习 率 采 / 


进行 迭代 , 迭代 80000 次 , 如 图 8 所 示 , 经 验证 集 确 认 第 73800 
次 迭代 结果 作为 最 终 权 重 模型 。 
| 
E 14 \ 
$ 
ES 12 Ny ] 
10 D PM 4 
|. Ba RR 
4 1 2 3 "mm 5 6 7 8 
图 8 网络 迭代 损失 值 变化 区 
为 了 综合 评价 本 文 算法 有 效 性 ， 本 节 对 综合 上 述 了 


INRIA 行人 测试 集 上 对 本 文 方法 与 3 
RandForest20、ConvNetP3 等 行人 检测 方法 以 及 YOLOv2 方法 
性 能 指标 进行 评估 ， 得 出 FPPI-MR 关系 的 ROC 


的 检测 


ROC 


线 下 的 面 


验 结果 妇 


积 越 小 ， 说明 行人 检测 方法 检测 性 


[图 9 和 表 2 所 示 。 


13% YOLOV 


因为 YOLOv2 ŽA 
行 设计 的 网 络 没有 相应 预 训练 模型 ，ImageNet Tii 
巨大 ， 因 此 1% 的 差距 在 理 
从 表 2 可 以 看 出 , 本 方法 在 INRIA 数据 集 上 是 
现 ， 每 张 图 片 误 检 率 仅 13.86%, 不同 程 度 
其 他 传统 算法 , 特别 是 在 FPPI<10-! 时 , 本 算法 的 行 
明显 优 于 其 他 算法 。 其 原因 在 于 大 多 数 手工 设计 特 
测 方法 对 行人 的 表征 能 力 较 差 ， 而 本 算法 针对 图 片 行人 4 
像 中 行人 特征 表达 的 网 络 输入 和 能 够 更 好 提取 行 
通过 混合 数据 集 、 聚 


计 了 有 助 于 图 
人 图 像 特征 的 深度 残 差 网 络 ， 
0 强 训练 ， 使 本 方法 能 够 
征 ， 进 而 进一步 降低 每 引 


EFIK} 


从 图 9 本 方法 和 YOLOv2 的 ROC 曲线 可 以 看 出 ， 本 方法 
Ej YOLOv2 相 比 ， 当 FPPI<10-1 时 本 方法 明显 优 于 YOLOV2 方 


线 总 体 来 看 , 本 方法 的 FPPI 指标 较 YOLOv2 低 约 196, 


月 了 ImageNet 


预 训练 模型 训练 ， 而 本 方法 自 


论 上 是 合理 的 。 


| 练 模型 对 调 


凤 得 了 较 好 的 
上 优 于 图 表 中 


人 检测 性 能 
征 的 行人 检 


村 征 设 


类 初 选 预 


自主 学 习 到 更 有 效 的 行人 特 
gri 


K 

表 2 主流 行人 算法 检测 率 对 比 
行人 检测 方法 FPPI(96) 
VJ 72.4810 
HOG 45.9788 
HikSvm 42.8188 
HogLbp 39.0968 
LatSvm-V2 19.9641 
VeryFast 15.9591 
ConvNet 19.8934 
ACF 17.2809 
RandForest 15.3714 
WordChannels 15.9511 
本 方法 13.8589 


E 流 的 LatSVML9、ACFP0、 


一 种 基于 深度 残 差 网 络 和 
特点 ， 提 出 了 一 种 


结束 语 


本 文 针 对 行人 自身 形状 特征 
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FUEL R 


行人 特征 表达 ;为 J 
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和 在 图 像 中 的 分 布 特征 提出 了 
| 上方 法。 针对 行人 形状 和 分 布 
的 卷 积 神 经 网 络 分 类 模 3 
E 提 取 能 力 ， 提 出 了 一 种 基于 
预 激活 深度 残 差 网 络 的 行人 检测 方法 。 在 方法 设计 时 ， 为 了 提 
准确 率 和 泛 化 能 力 ， 提 出 了 混合 行人 数据 集训 练 的 方式 
过 聚 类 分 析 预 测 框 的 方法 重新 为 
匡 ， 提 高 行人 定位 能 力 并 加 快 收 你 。 实 验 


型 ， 加 强 了 


， 本 算法 拥有 良好 的 实时 性 和 泛 化 能 力 的 同时 ， 在 公 


昌 集 下 本 方法 较 主 流行 人 检测 方法 的 准 


提升 。 本 文 仅 是 对 基于 卷 积 
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平均 每 张 图片 误 检 行 人 个 数 


图 9 本 算法 和 主流 行人 算法 的 ROC 


索 ， 如 何在 保证 实时 性 的 进 
步 探索 的 方向 。 


确 率 有 显著 


经 网 络 的 行人 检测 方法 的 初步 探 


步 提 高 准确 率 和 泛 化 能 力 是 下 
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